智能论文笔记

UniMorph 4.0: Universal Morphology

Khuyagbaatar Batsuren , Omer Goldman , Salam Khalifa , Nizar Habash , Witold Kieraś , Gábor Bella , Brian Leonard , Garrett Nicolai , Kyle Gorman , Yustinus Ghanggo Ate

分类：自然语言处理

2022-05-07

通用形态（UNIMORPH）项目是一项合作的努力，可为数百种世界语言实例化覆盖范围的标准化形态拐角。该项目包括两个主要的推力：一种无独立的特征架构，用于丰富的形态注释，并以各种语言意识到该模式的各种语言的带注释数据的类型级别资源。本文介绍了过去几年对几个方面的扩张和改进（自McCarthy等人（2020年）以来）。众多语言学家的合作努力增加了67种新语言，其中包括30种濒危语言。我们已经对提取管道进行了一些改进，以解决一些问题，例如缺少性别和马克龙信息。我们还修改了模式，使用了形态学现象所需的层次结构，例如多肢体协议和案例堆叠，同时添加了一些缺失的形态特征，以使模式更具包容性。鉴于上一个UniMorph版本，我们还通过16种语言的词素分割增强了数据库。最后，这个新版本通过通过代表来自metphynet的派生过程的实例丰富数据和注释模式来推动将衍生物形态纳入UniMorph中。

translated by 谷歌翻译

本文介绍了代数单词问题评分释义的新任务（AWP），并提出了一种自我监督的方法。在当前的在线教学环境中，释义这些问题对于院士来说有助于产生多种句法的问题以进行评估。它还有助于引起变化，以确保学生已经理解问题，而不仅仅是记住问题或使用不公平的手段来解决问题。当前的最新释义生成模型通常无法有效地解释单词问题，失去关键信息（例如数字或单位），这使问题无法解决。在AWP的背景下，需要释义方法来训练良好的释义者。因此，我们提出了使用新型数据增强的一种自我监督的解释质量检测方法ParaqD，可以学习潜在表示，以通过广泛的利润将代数问题与贫穷的问题分开。通过广泛的实验，我们证明我们的方法的表现优于现有的最先进的自我监管方法，高达32％，同时也证明了令人印象深刻的零拍性能。

translated by 谷歌翻译